2025 iThome 鐵人賽
分享至
傳統的 RAG 架構主要針對「文字資料」,透過向量化、檢索,再將結果交由模型生成答案。但現實世界的資訊並不僅限於文字。醫療領域有 MRI 影像,法律案件有圖表與影音紀錄,企業知識庫包含簡報、影片。於是,發展出多模態檢索(Multimodal RAG) ,它將 RAG 從「文字世界」拓展到「多模態世界」,能夠同時理解文字、圖像、影音、語音。
多模態RAG的目標是 讓AI能跨越不同資料型態,進行檢索與整合推理
未來的 AI 將能跨越模態,成為真正的智慧助理。
IT邦幫忙